[レポート] Improve data lake workload performance with Apache Iceberg on Amazon S3 #AWSreInvent

[レポート] Improve data lake workload performance with Apache Iceberg on Amazon S3 #AWSreInvent

はじめに

ラスベガスで開催されているre:Invent2024も2日目となりました。
Keynoteに合わせて人が増えるのか、会場もセッションもかなり人が増えた印象があります。

今朝のKeynoteでS3 Tableの発表があったのでIcebergについて情報収集したいと思っていたところ、ちょうどよいセッションがあったのでWalkupで飛び入り参加してきました。

セッション概要

Improve data lake workload performance with Apache Iceberg on Amazon S3

IMG_0572.jpg

原文

It is critical for data-driven businesses today to manage price performance for streaming, data lakes, analytics, and AI/ML workloads as they grow to petabytes scale. AWS customers are increasingly using Apache Iceberg across their technology stacks as a single source of truth to manage their data. This chalk talk uses production examples to walk you through Iceberg tooling and AWS best practices to drive operational efficiency and query performance optimization for your workloads on Amazon S3.

日本語訳(機械翻訳)

今日のデータ駆動型ビジネスにとって、ストリーミング、データレイク、アナリティクス、AI/MLのワークロードがペタバイト規模に成長するにつれて、その価格パフォーマンスを管理することは非常に重要です。AWSのお客様は、データを管理するための単一の真実のソースとして、テクノロジースタック全体でApache Icebergを使用することが増えています。このチョークトークでは、Amazon S3上のワークロードの運用効率とクエリパフォーマンスの最適化を推進するためのIcebergツールとAWSのベストプラクティスについて、実例を用いて説明します。

Speakers

  • Oleg Lvovitch, Principa, Principal Engineer, AWS
  • Anupriti Warade, Senior Product Manager-Technical, AWS

セッション内容

アジェンダです

IMG_0574.jpg

DWHを利用しているユーザーの課題とIcebergの利点、Icebergが使用できるAWSサービスの例が共有されました。

IMG_0578.jpg

IMG_0580.jpg

続いてIceberg形式のテーブルについて説明がありました。
Iceberg初心者にはありがたい内容でした。

IMG_0582.jpg

IMG_0583.jpg

https://iceberg.apache.org/spec/#specification

続くデモでは、AthenaからIceberg形式のテーブルを作成し、S3に作成されたマニフェストファイルの中身やデータファイルを参加者と一緒に確認するといったことを行いました。

IMG_0584.jpg

IMG_0588.jpg

また、Icebergテーブルのメンテナンスやコンパクションについてデモを交えながら説明がありました。

IMG_0598.jpg
IMG_0597.jpg

以下のブログで行っている確認をデモで実施していた感じです。
https://dev.classmethod.jp/articles/amazon-athena-iceberg-vacuum-optimize-s3-data-file-layout/

そして最後、発表されたばかりのS3 Tablesの紹介がありました。
独自でIceberg形式のテーブルを管理するよりも多くのメリットがありそうです。

  • 最大で3倍のクエリパフォーマンス、最大で10倍のTPS性能
  • 簡単なアクセスコントロール
  • メンテナンスの自動化

IMG_0603.jpg

おわりに

以上、Chalk Talkの「Improve data lake workload performance with Apache Iceberg on Amazon S3」のセッションレポートでした。

S3 Tableについては公式のブログもご参照ください。
https://aws.amazon.com/jp/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/

新しく発表されたAmazon S3メタデータ(Preview)についてはこちらのブログを御覧ください。
https://dev.classmethod.jp/articles/amazon-s3-bucket-metadata-preview/

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.